We propose a very fast frame-level model for anomaly detection in video, which learns to detect anomalies by distilling knowledge from multiple highly accurate object-level teacher models. To improve the fidelity of our student, we distill the low-resolution anomaly maps of the teachers by jointly applying standard and adversarial distillation, introducing an adversarial discriminator for each teacher to distinguish between target and generated anomaly maps. We conduct experiments on three benchmarks (Avenue, ShanghaiTech, UCSD Ped2), showing that our method is over 7 times faster than the fastest competing method, and between 28 and 62 times faster than object-centric models, while obtaining comparable results to recent methods. Our evaluation also indicates that our model achieves the best trade-off between speed and accuracy, due to its previously unheard-of speed of 1480 FPS. In addition, we carry out a comprehensive ablation study to justify our architectural design choices.
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
从大规模训练数据集中获利,神经结构设计和高效推断的进步,联合嵌入成为解决交叉模态检索的主导方法。在这项工作中,我们首先表明,尽管他们有效性,但最先进的联合嵌入从长期的封闭问题中遭受显着遭受显着的困扰,其中少数画廊嵌入形成了许多查询的最近邻居。从NLP文献中汲取灵感,我们制定了一个称为QueryBank归一化(QB-Norm)的简单但有效的框架,该框架重新归属查询相似度,以解释嵌入空间中的集线器。 qb-norm提高了检索性能而不需要再培训。与事先工作不同,我们显示QB-​​Norm有效地工作,而不会对任何测试设置查询进行操作。在QB-Norm框架内,我们还提出了一种新颖的相似性归一化方法,动态倒置Softmax,比现有方法明显更强大。我们在一系列交叉模态检索模型和基准中展示了QB-Norm,在那里它一直增强超出现有技术的强基线。代码可在https://vladbogo.github.io/qb-norm/处获得。
translated by 谷歌翻译